InterSpeech2020 論文読み会より “An unsupervised method to select a speaker subset from large multi-speaker speech synthesis datasets” https://j.mp/3nFLOeJ サブセットで学習したTTSのほうがよくなる選出方法 クラスタリングの際の話者特徴量としてDeep Spectrumが最適



from Twitter https://twitter.com/o_ob